@sameQCUによるDiffusion Transformers (DiT) のアーキテクチャに対する強い批判

https://x.com/sameQCU/status/1957223774094585872DiTは根本的にアーキテクチャが間違い(効率が悪すぎ)ではないか？と言う内容

Grok-4.icon

この一連のスレッドは、@sameQCUによるDiffusion Transformers (DiT) のアーキテクチャに対する強い批判を中心に展開しています。主に、最近の論文「TREAD」（Training strategy that enables substantially more efficient training of token-based diffusion backbones）に基づき、DiTの根本的な欠陥を指摘し、代替的な考察を加えています。以下に、時系列順に主要なポイントをまとめます。

2501.04765 TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training

Training strategy that enables substantially more efficient training of token-based diffusion backbonesはTREADのfigureのcaption基素.icon

スレッドの概要

起点ポスト（2025/8/17）: DiTは数学的・形式的に間違っていると断言。TREAD論文の図（FID vs. Training Time）を引用し、DiTがデータセットを効率的に学習せず、FID（Fréchet Inception Distance）が早期に底打ちする点を指摘。2xの高速化は最適化だが、1000xの高速化はDiTの欠陥の証明だと主張。

続ポスト: DiTを使うなと警告。「training time network lesions」（学習時にネットワークの一部を無効化する仕組み）が必要なのは、ネットワークが破綻している証拠。TREADがネットワークの多くをアイデンティティ関数に置き換えることで評価スコアが向上することを挙げ、DiTの設計ミスを強調。

DiTの疑わしい点の指摘:

1. 全体アーキテクチャのpost-layernorm: Diffusionの出力が極端なダイナミックレンジを持つため、logスケールが必要。DiTのレイヤーノームがこれを扱いきれていない可能性。

2. adaLN-zero: DiTがトランスフォーマーベースを謳っているのに、コンディショニングデータ（label_y, timestep_t）がトランスフォーマーを通さず、MLP経由でバイアスとして注入される点が問題。Attention操作を嫌い、入力/出力にバイアスを強制的に上書きする設計が非合理的。

TREADのメカニズムの解釈: adaLN-zeroが残差接続にバイアスを追加し、表現力を制限する。TREADがこれを改善するが、DiTの設計自体が無意味で、過学習を招くアーキテクチャだと批判。

続編（2025/8/19）: 2019年の論文（arxiv.org/abs/1911.07013, "Understanding and Improving Layer Normalization"）を引用。LayerNormのバリエーション（simple, detachなど）を議論し、gain/biasパラメータがトレーニングの勾配調整に寄与するが、モデル性能を向上させない点を指摘。adaLN-zeroやTREADがこれに関連し、コンディショニングをgain/biasのみで扱う設計が疑わしいと結論。LayerNorm_simple + scaleを推奨し、Attention/FC外のパラメータを疑う姿勢を強調。

全体のトーンと結論

スレッドはDiTの使用を強く避けるよう警告し、TREADの成果をDiTの欠陥暴露として解釈。過学習や非効率な設計を根拠に、代替アーキテクチャの検討を促しています。画像（論文のAbstract、Figure、コード/図解）は議論を補強するもので、FIDの改善やLayerNormの比較を示しています。総じて、DiTの「トーステッド（破綻した）」状態を繰り返し強調する内容です。

基素.icon批判は的を得ているか？得ているならもっと注目されそうだが

Grok-4.icon

@saneQCUのDiT（Diffusion Transformers）に対する批判は、部分的に的を得ていると言えます。DiTの設計、特にadaLN-zeroの条件付け方法やレイヤーノームの配置が効率や表現力を制限し、過学習を招く可能性がある点は、関連論文や議論で指摘されている問題と一致します。ただし、批判全体が「数学的に・形式的に間違っている」というほど根本的な欠陥ではなく、改善可能なアーキテクチャの弱点として扱われており、コミュニティではDiTを基盤とした進化が続いています。以下で詳しく説明します。

批判の正当性の評価

的を得ている点:

効率の悪さとTREADの解釈: スレッドで指摘されるように、DiTのトレーニングが非効率でFIDが早期に飽和する問題は、複数の論文で確認されます。例えば、DiTのスケーリング法則を調べた研究では、計算予算が増えても生成品質の向上が限定的で、トークン処理のボトルネックが指摘されています。また、TREADのようなトレーニング戦略がDiTの効率を大幅に向上させるのは事実で、これを「アーキテクチャの欠陥の証明」と見なす解釈は合理的です。TREADはstochastic depthに似た正則化効果を提供し、DiTの表現学習を強化しますが、これはDiTのデフォルト設計が最適化されていない証拠でもあります。

adaLN-zeroの非合理性: adaLN-zeroが条件付けデータをトランスフォーマー本体を通さずバイアスとして注入する設計は、表現力を制限する可能性があります。LayerNormのバリエーションに関する古い論文（1911.07013）では、gain/biasパラメータがトレーニングの勾配調整には寄与するが、モデル性能を向上させず過学習リスクを高めることが示されており、これがadaLN-zeroの弱点と一致します。実際、DiTの改良版（e.g., Lightning DiT）ではSwigLuやRMSNormへの置き換えが推奨され、adaLN-zeroをtime embeddingに限定するアプローチが取られています。

全体のLayerNormとdynamic rangeの問題: Diffusionの出力が極端なレンジを持つため、post-layernormが不適切という指摘は、LayerNormのシンプル版（bias/gainなし）が優位性を示す研究と連動します。 DiTのattention圧縮やスキップブランチを提案する論文でも、特徴量の不安定さが効率低下の原因として挙げられています。

的を外れている点:

DiTが「完全に破綻（TOASTED）」しているわけではなく、ImageNet生成でSOTAを達成した実績があります。 DiTの作者側（Saining Xie）から、批判は「click-baiting」で、TREADは正則化効果によるものでDiTの根本欠陥ではないと反論されています。また、SD-VAEの非効率が本当のボトルネックで、DiT自体はアップデート（REPA, SiTなど）で強化可能と指摘されます。他の論文でも、DiTのattentionのquadratic complexityを加速する手法（DiTFastAttn, Delta-DiT）が提案されており、問題は解決可能と見なされています。

全体として、批判はDiTの設計選択が最適でないことを鋭く突いていますが、コミュニティのコンセンサスは「進化中のアーキテクチャ」として扱われており、完全な否定には至っていません。DiTはtransformerのスケーラビリティを活かし、テキスト-to-イメージ生成で広く使われています。

なぜもっと注目されていないのか

ニッチなトピックとタイミング: DiTは2022年の論文で、2025年現在も進化中ですが、AIコミュニティの焦点はLLMやマルチモーダルモデルに移っています。Yann LeCunのような著名人がARモデルの問題を指摘する中、DiT特有の批判は専門的すぎて一般的な議論に埋もれやすいです。スレッドの投稿日が2025/8/17で、Views=240,980、Likes=1,020と一定の注目はあるものの、爆発的な拡散には至っていません。

過激なトーンと反論の影響: 「do NOT use DiT」「TOASTED」などの強い表現が、Saining Xieから「LARPing science（頭の中で科学ごっこ）」と批判され、click-baitとして受け止められています。 Xのアルゴリズムでは、建設的な議論よりセンセーショナルなものが広がりやすいですが、ここでは作者側の反論が目立ち、バランスを取っています。

コミュニティのバイアスと実用性: DiTはHugging Faceなどで実装され、効率改善（DiT-Air, Dynamic DiT）が進んでいるため、批判が「過去の問題」として扱われやすいです。 Redditやarxivの議論でも、DiTの欠点は認識されつつ、GANや他のdiffusionモデルとの比較で優位性が強調されます。正当な批判があっても、業界のスケーリング優先の風潮で無視されやすいです。

もしこの批判がさらに実験データで裏付けられれば、注目度が上がる可能性がありますが、現状ではDiTの成功例がそれを上回っているようです。